λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)κ³Ό κ·Έ κΈ°λ°μ΄ λλ νΈλμ€ν¬λ¨Έ μν€ν μ²μ μμ¬, λ©μ»€λμ¦, κ·Έλ¦¬κ³ μμ© λΆμΌλ₯Ό λ€λ£¨λ μ’ ν©μ μΈ νꡬ.
λκ·λͺ¨ μΈμ΄ λͺ¨λΈ: νΈλμ€ν¬λ¨Έ μν€ν μ² μ¬μΈ΅ λΆμ
λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(Large Language Models, LLM)μ μμ°μ΄ μ²λ¦¬(Natural Language Processing, NLP) λΆμΌμ νλͺ μ μΌμΌν€λ©°, κΈ°κ³κ° μ λ‘ μλ λ°©μμΌλ‘ μΈκ°μ μΈμ΄λ₯Ό μ΄ν΄νκ³ , μμ±νλ©°, μνΈμμ©ν μ μκ² λ§λ€μμ΅λλ€. μ΄ κ°λ ₯ν λͺ¨λΈλ€μ μ€μ¬μλ μ΄μ μ μνμ€-ν¬-μνμ€(sequence-to-sequence) λͺ¨λΈλ€μ νκ³λ₯Ό 극볡ν νκΈ°μ μΈ νμ μΈ νΈλμ€ν¬λ¨Έ μν€ν μ²κ° μμ΅λλ€. μ΄ κΈμμλ νΈλμ€ν¬λ¨Έ μν€ν μ²μ 볡μ‘μ±μ νν€μΉκ³ , κ·Έ μμ¬, ν΅μ¬ κ΅¬μ± μμ, κ·Έλ¦¬κ³ AI μΈκ³μ λ―ΈμΉ μν₯μ νꡬν©λλ€.
μνμ€-ν¬-μνμ€ λͺ¨λΈμ λΆμ
νΈλμ€ν¬λ¨Έ μ΄μ μλ μν μ κ²½λ§(Recurrent Neural Networks, RNN)κ³Ό κ·Έ λ³νμΈ LSTM(Long Short-Term Memory), GRU(Gated Recurrent Units)κ° μνμ€-ν¬-μνμ€ μμ μ μ§λ°°μ μΈ μν€ν μ²μμ΅λλ€. μ΄ λͺ¨λΈλ€μ μ λ ₯ μνμ€λ₯Ό ν λ²μ νλμ© μ²λ¦¬νλ©°, κ³Όκ±°μ λν μ 보λ₯Ό λ΄μ μλ μν(hidden state)λ₯Ό μ μ§νμ΅λλ€. κ·Έλ¬λ RNNμ μ¬λ¬ νκ³μ μ κ°μ§κ³ μμμ΅λλ€:
- κ·ΈλλμΈνΈ μμ€ λ° νμ£Ό(Vanishing and Exploding Gradients): μ¬μΈ΅ RNNμ νλ ¨νλ κ²μ κ·ΈλλμΈνΈ μμ€ λ° νμ£Ό λ¬Έμ λλ¬Έμ μ΄λ €μ μΌλ©°, μ΄λ‘ μΈν΄ λͺ¨λΈμ΄ μ₯κΈ° μμ‘΄μ±(long-range dependencies)μ νμ΅νκΈ° μ΄λ €μ μ΅λλ€.
- μμ°¨μ κ³μ°(Sequential Computation): RNNμ μνμ€λ₯Ό μμ°¨μ μΌλ‘ μ²λ¦¬νκΈ° λλ¬Έμ λ³λ ¬νκ° μ νλμκ³ , νλ ¨μ΄ λλ¦¬κ³ κ³μ° λΉμ©μ΄ λ§μ΄ λ€μμ΅λλ€.
- κΈ΄ μνμ€ μ²λ¦¬μ μ΄λ €μ: RNNμ κΈ΄ μνμ€μμ μ₯κΈ° μμ‘΄μ±μ ν¬μ°©νλ λ° μ΄λ €μμ κ²ͺμμ΅λλ€. μνμ€ μμ λΆλΆμ μ λ³΄κ° λ€νΈμν¬λ₯Ό ν΅κ³Όνλ©΄μ μμ€λ μ μμκΈ° λλ¬Έμ λλ€.
νΈλμ€ν¬λ¨Έ: ν¨λ¬λ€μμ μ ν
2017λ , κ΅¬κΈ λΈλ μΈ(Google Brain)μ μ°κ΅¬νμ κ·Έλ€μ κΈ°λ λΉμ μΈ λ Όλ¬Έ "Attention is All You Need"μμ νΈλμ€ν¬λ¨Έ μν€ν μ²λ₯Ό μκ°νμ΅λλ€. νΈλμ€ν¬λ¨Έλ μν ꡬ쑰λ₯Ό μμ ν λ²λ¦¬κ³ μ€μ§ μ΄ν μ λ©μ»€λμ¦μλ§ μμ‘΄νμ¬ μ λ ₯ μνμ€μ λ€λ₯Έ λΆλΆλ€ κ°μ κ΄κ³λ₯Ό ν¬μ°©νμ΅λλ€. μ΄ νμ μ μΈ μ κ·Ό λ°©μμ μ¬λ¬ μ΄μ μ μ 곡νμ΅λλ€:
- λ³λ ¬ν(Parallelization): νΈλμ€ν¬λ¨Έλ μ 체 μ λ ₯ μνμ€λ₯Ό λ³λ ¬λ‘ μ²λ¦¬ν μ μμ΄ νλ ¨ λ° μΆλ‘ μλλ₯Ό ν¬κ² ν₯μμμΌ°μ΅λλ€.
- μ₯κΈ° μμ‘΄μ±(Long-Range Dependencies): μ΄ν μ λ©μ»€λμ¦μ ν΅ν΄ λͺ¨λΈμ 거리μ μκ΄μμ΄ μ λ ₯ μνμ€μ μ΄λ λΆλΆμλ μ§μ μ μΌλ‘ μ£Όλͺ©ν μ μμ΄ μ₯κΈ° μμ‘΄μ±μ ν¨κ³Όμ μΌλ‘ ν¬μ°©νμ΅λλ€.
- ν΄μ κ°λ₯μ±(Interpretability): μ΄ν μ κ°μ€μΉλ λͺ¨λΈμ΄ μ λ ₯ μνμ€μ μ΄λ λΆλΆμ μ§μ€νκ³ μλμ§μ λν ν΅μ°°λ ₯μ μ 곡νμ¬ λͺ¨λΈμ λ ν΄μ κ°λ₯νκ² λ§λ€μμ΅λλ€.
νΈλμ€ν¬λ¨Έμ ν΅μ¬ κ΅¬μ± μμ
νΈλμ€ν¬λ¨Έ μν€ν μ²λ ν μ€νΈλ₯Ό μ²λ¦¬νκ³ μμ±νκΈ° μν΄ ν¨κ» μλνλ λͺ κ°μ§ μ£Όμ κ΅¬μ± μμλ‘ μ΄λ£¨μ΄μ§λλ€. μ΄λ¬ν κ΅¬μ± μμλ λ€μκ³Ό κ°μ΅λλ€:
1. μ λ ₯ μλ² λ©(Input Embedding)
μ λ ₯ μνμ€λ λ¨Όμ μλ² λ© λ μ΄μ΄λ₯Ό μ¬μ©νμ¬ λ°μ§ 벑ν°(dense vector)μ μνμ€λ‘ λ³νλ©λλ€. κ° λ¨μ΄ λλ νμ λ¨μ΄ ν ν°μ κ·Έ μλ―Έμ μλ―Έλ₯Ό ν¬μ°©νλ κ³ μ°¨μ λ²‘ν° ννμ λ§€νλ©λλ€. μλ₯Ό λ€μ΄, "μ"μ΄λΌλ λ¨μ΄λ "μ¬μ"μ΄λ "ν΅μΉμ"μ 벑ν°μ κ°κΉμ΄ 벑ν°λ‘ ννλ μ μμ΅λλ€.
2. μμΉ μΈμ½λ©(Positional Encoding)
νΈλμ€ν¬λ¨Έλ μν ꡬ쑰μ μμ‘΄νμ§ μκΈ° λλ¬Έμ, μνμ€μμ κ° λ¨μ΄μ μμΉλ₯Ό μΈμ½λ©ν λ©μ»€λμ¦μ΄ νμν©λλ€. μ΄λ μμΉ μΈμ½λ©μ ν΅ν΄ μ΄λ£¨μ΄μ§λ©°, κ° λ¨μ΄ μλ² λ©μ μνμ€ λ΄ μμΉλ₯Ό λνλ΄λ 벑ν°λ₯Ό μΆκ°ν©λλ€. μ΄λ¬ν μμΉ μλ² λ©μ μΌλ°μ μΌλ‘ μ£Όνμκ° λ€λ₯Έ μ¬μΈ λ° μ½μ¬μΈ ν¨μλ₯Ό κΈ°λ°μΌλ‘ ν©λλ€. μλ₯Ό λ€μ΄, λ¬Έμ₯μ 첫 λ²μ§Έ λ¨μ΄λ λ λ²μ§Έ λ¨μ΄μ λ€λ₯Έ μμΉ μΈμ½λ©μ κ°μ§ μ μμ΅λλ€.
3. μΈμ½λ(Encoder)
μΈμ½λλ μ λ ₯ μνμ€λ₯Ό μ²λ¦¬νκ³ κ° λ¨μ΄μ λ¬Έλ§₯νλ ννμ μμ±νλ μν μ ν©λλ€. μ¬λ¬ κ°μ λμΌν λΈλ‘ λ μ΄μ΄λ‘ ꡬμ±λ©λλ€. κ° λΈλ‘μλ λ κ°μ νμ λ μ΄μ΄κ° μμ΅λλ€:
- λ©ν° ν€λ μ ν μ΄ν μ (Multi-Head Self-Attention): μ΄ λ μ΄μ΄λ μ λ ₯ μνμ€μ κ° λ¨μ΄μ μνμ€ λ΄ λ€λ₯Έ λͺ¨λ λ¨μ΄ κ°μ μ΄ν μ κ°μ€μΉλ₯Ό κ³μ°ν©λλ€. μ΄ν μ κ°μ€μΉλ κ° λ¨μ΄κ° λ¬Έλ§₯νλ ννμ νμ±ν λ λ€λ₯Έ λ¨μ΄μ μΌλ§λ μ£Όλͺ©ν΄μΌ νλμ§λ₯Ό λνλ λλ€. "λ©ν° ν€λ"λ μ΄ν μ λ©μ»€λμ¦μ΄ λ³λ ¬λ‘ μ¬λ¬ λ² μ μ©λμ΄ κ° ν€λκ° λ€λ₯Έ μ΄ν μ ν¨ν΄μ νμ΅νλ€λ κ²μ μλ―Έν©λλ€.
- νΌλ ν¬μλ λ€νΈμν¬(Feed Forward Network): μ΄ λ μ΄μ΄λ κ° λ¨μ΄ μλ² λ©μ λ 립μ μΌλ‘ νΌλ ν¬μλ μ κ²½λ§μ μ μ©ν©λλ€. μ΄ λ€νΈμν¬λ μΌλ°μ μΌλ‘ μ€κ°μ ReLU νμ±ν ν¨μκ° μλ λ κ°μ μμ μ°κ²° λ μ΄μ΄λ‘ ꡬμ±λ©λλ€.
κ° νμ λ μ΄μ΄ λ€μλ μμ°¨ μ°κ²°(residual connection)κ³Ό λ μ΄μ΄ μ κ·ν(layer normalization)κ° μ΄μ΄μ§λλ€. μμ°¨ μ°κ²°μ κ·ΈλλμΈνΈ μμ€ λ¬Έμ λ₯Ό μννλ λ° λμμ΄ λλ©°, λ μ΄μ΄ μ κ·νλ νλ ¨μ μμ μν€λ λ° λμμ΄ λ©λλ€.
4. λμ½λ(Decoder)
λμ½λλ μΈμ½λκ° μμ±ν λ¬Έλ§₯νλ ννμ κΈ°λ°μΌλ‘ μΆλ ₯ μνμ€λ₯Ό μμ±νλ μν μ ν©λλ€. μ΄ μμ μ¬λ¬ κ°μ λμΌν λΈλ‘ λ μ΄μ΄λ‘ ꡬμ±λ©λλ€. κ° λΈλ‘μλ μΈ κ°μ νμ λ μ΄μ΄κ° μμ΅λλ€:
- λ§μ€ν¬λ λ©ν° ν€λ μ ν μ΄ν μ (Masked Multi-Head Self-Attention): μ΄ λ μ΄μ΄λ μΈμ½λμ λ©ν° ν€λ μ ν μ΄ν μ λ μ΄μ΄μ μ μ¬νμ§λ§, κ° λ¨μ΄κ° μνμ€μ λ―Έλ λ¨μ΄μ μ£Όλͺ©νλ κ²μ λ°©μ§νλ λ§μ€ν¬λ₯Ό ν¬ν¨ν©λλ€. μ΄λ λμ½λκ° μΆλ ₯ μνμ€λ₯Ό μμ±ν λ κ³Όκ±°μ μ λ³΄λ§ μ¬μ©νλλ‘ λ³΄μ₯νκΈ° μν΄ νμν©λλ€.
- λ©ν° ν€λ μ΄ν μ (Multi-Head Attention): μ΄ λ μ΄μ΄λ λ§μ€ν¬λ λ©ν° ν€λ μ ν μ΄ν μ λ μ΄μ΄μ μΆλ ₯κ³Ό μΈμ½λμ μΆλ ₯ κ°μ μ΄ν μ κ°μ€μΉλ₯Ό κ³μ°ν©λλ€. μ΄λ₯Ό ν΅ν΄ λμ½λλ μΆλ ₯ μνμ€λ₯Ό μμ±ν λ μ λ ₯ μνμ€μ κ΄λ ¨ λΆλΆμ μ£Όλͺ©ν μ μμ΅λλ€.
- νΌλ ν¬μλ λ€νΈμν¬(Feed Forward Network): μ΄ λ μ΄μ΄λ μΈμ½λμ νΌλ ν¬μλ λ€νΈμν¬μ λμΌν©λλ€.
μΈμ½λμ λ§μ°¬κ°μ§λ‘, κ° νμ λ μ΄μ΄ λ€μλ μμ°¨ μ°κ²°κ³Ό λ μ΄μ΄ μ κ·νκ° μ΄μ΄μ§λλ€.
5. μΆλ ₯ λ μ΄μ΄(Output Layer)
λμ½λμ λ§μ§λ§ λ μ΄μ΄λ μ ν λ μ΄μ΄μ κ·Έ λ€λ₯Ό μλ μννΈλ§₯μ€ νμ±ν ν¨μμ λλ€. μ΄ λ μ΄μ΄λ μ΄νμ λͺ¨λ κ°λ₯ν λ¨μ΄μ λν νλ₯ λΆν¬λ₯Ό μΆλ ₯ν©λλ€. κ°μ₯ λμ νλ₯ μ κ°μ§ λ¨μ΄κ° μΆλ ₯ μνμ€μ λ€μ λ¨μ΄λ‘ μ νλ©λλ€.
μ΄ν μ λ©μ»€λμ¦: νΈλμ€ν¬λ¨Έ μ±κ³΅μ μ΄μ
μ΄ν μ λ©μ»€λμ¦μ νΈλμ€ν¬λ¨Έ μν€ν μ²μ ν΅μ¬ νμ μ λλ€. μ΄λ₯Ό ν΅ν΄ λͺ¨λΈμ κ° λ¨μ΄λ₯Ό μ²λ¦¬ν λ μ λ ₯ μνμ€μ κ°μ₯ κ΄λ ¨μ± λμ λΆλΆμ μ§μ€ν μ μμ΅λλ€. μ΄ν μ λ©μ»€λμ¦μ κ° λ¨μ΄κ° μνμ€μ λ€λ₯Έ λ¨μ΄μ μΌλ§λ μ£Όλͺ©ν΄μΌ νλμ§λ₯Ό λνλ΄λ μ΄ν μ κ°μ€μΉ μ§ν©μ κ³μ°νμ¬ μλν©λλ€.
μ΄ν μ κ°μ€μΉλ λ€μ 곡μμ μ¬μ©νμ¬ κ³μ°λ©λλ€:
Attention(Q, K, V) = softmax((QK^T) / sqrt(d_k))V
μ¬κΈ°μ:
- Qλ 쿼리(queries) νλ ¬μ λλ€
- Kλ ν€(keys) νλ ¬μ λλ€
- Vλ κ°(values) νλ ¬μ λλ€
- d_kλ ν€μ μ°¨μμ λλ€
쿼리, ν€, κ°μ λͺ¨λ μ λ ₯ μλ² λ©μμ νμλ©λλ€. 쿼리λ μ£Όλͺ©λ°λ λ¨μ΄λ₯Ό λνλ΄κ³ , ν€λ μ£Όλͺ©νλ λμμ΄ λλ λ¨μ΄λ₯Ό λνλ΄λ©°, κ°μ μ£Όλͺ©λ°λ μ 보λ₯Ό λνλ λλ€. μ΄ν μ κ°μ€μΉλ 쿼리μ ν€μ λ΄μ μ κ³μ°νκ³ , κ·Έ κ²°κ³Όλ₯Ό ν€ μ°¨μμ μ κ³±κ·ΌμΌλ‘ μ€μΌμΌλ§ν λ€μ, μννΈλ§₯μ€ ν¨μλ₯Ό μ μ©νμ¬ κ³μ°λ©λλ€. μννΈλ§₯μ€ ν¨μλ μ΄ν μ κ°μ€μΉμ ν©μ΄ 1μ΄ λλλ‘ λ³΄μ₯ν©λλ€. κ·Έλ° λ€μ μ΄ν μ κ°μ€μΉλ κ°κ³Ό κ³±ν΄μ Έ κ°μ κ°μ€ ν©μ μμ±νλ©°, μ΄λ λ¨μ΄μ λ¬Έλ§₯νλ ννμ λνλ λλ€.
λ©ν° ν€λ μ΄ν μ
νΈλμ€ν¬λ¨Έλ λ©ν° ν€λ μ΄ν μ μ μ¬μ©ν©λλ€. μ΄λ μ΄ν μ λ©μ»€λμ¦μ΄ λ³λ ¬λ‘ μ¬λ¬ λ² μ μ©λμ΄ κ° ν€λκ° μλ‘ λ€λ₯Έ μ΄ν μ ν¨ν΄μ νμ΅νλ€λ κ²μ μλ―Έν©λλ€. μ΄λ₯Ό ν΅ν΄ λͺ¨λΈμ μ λ ₯ μνμ€μ λ¨μ΄λ€ κ°μ λ€μν μ νμ κ΄κ³λ₯Ό ν¬μ°©ν μ μμ΅λλ€. μλ₯Ό λ€μ΄, ν ν€λλ ꡬ문μ κ΄κ³μ μ£Όλͺ©νλ λ²μ λ°°μ°κ³ , λ€λ₯Έ ν€λλ μλ―Έμ κ΄κ³μ μ£Όλͺ©νλ λ²μ λ°°μΈ μ μμ΅λλ€.
μ¬λ¬ μ΄ν μ ν€λμ μΆλ ₯μ ν¨κ» μ°κ²°λ ν μ ν λ μ΄μ΄λ₯Ό ν΅κ³Όνμ¬ λ¨μ΄μ μ΅μ’ λ¬Έλ§₯νλ ννμ μμ±ν©λλ€.
νΈλμ€ν¬λ¨Έ κΈ°λ° LLMμ μμ©
νΈλμ€ν¬λ¨Έ μν€ν μ²λ λ€μν NLP μμ μμ μ΅μ²¨λ¨ κ²°κ³Όλ₯Ό λ¬μ±ν κ°λ ₯ν LLMμ κ°λ°μ κ°λ₯νκ² νμ΅λλ€. νΈλμ€ν¬λ¨Έ κΈ°λ° LLMμ κ°μ₯ μ£Όλͺ©ν λ§ν μμ© λΆμΌλ λ€μκ³Ό κ°μ΅λλ€:
- ν μ€νΈ μμ±: LLMμ νμ€μ μ΄κ³ μΌκ΄μ± μλ ν μ€νΈλ₯Ό μμ±ν μ μμ΄ κΈ°μ¬ μμ±, λ§μΌν 문ꡬ μ μ, μ°½μμ μΈ μ½ν μΈ μμ±κ³Ό κ°μ μμ μ μ μ©ν©λλ€. μλ₯Ό λ€μ΄, GPT-3 λ° LaMDAμ κ°μ μμ€ν μ μ, μ½λ, μ€ν¬λ¦½νΈ, μμ μν, μ΄λ©μΌ, νΈμ§ λ± λ€μν μ°½μμ μΈ ν μ€νΈ νμμ μμ±ν μ μμ΅λλ€.
- κΈ°κ³ λ²μ: LLMμ κΈ°κ³ λ²μ μμ€ν μ μ νλλ₯Ό ν¬κ² ν₯μμμΌ λ€λ₯Έ μΈμ΄λ₯Ό μ¬μ©νλ μ¬λλ€ κ°μ μνν μμ¬μν΅μ κ°λ₯νκ² ν©λλ€. κ΅¬κΈ λ²μ λ° DeepLκ³Ό κ°μ μλΉμ€λ λ²μ κΈ°λ₯μ μν΄ νΈλμ€ν¬λ¨Έ μν€ν μ²λ₯Ό νμ©ν©λλ€.
- μ§μμλ΅: LLMμ μ£Όμ΄μ§ λ¬Έλ§₯μ κΈ°λ°μΌλ‘ μ§λ¬Έμ λ΅ν μ μμ΄ κ³ κ° μ§μ λ° μ 보 κ²μκ³Ό κ°μ μμ μ μ μ©ν©λλ€. λ¬Έμλ μΉμ¬μ΄νΈμ λν μ§λ¬Έμ λ΅ν μ μλ μμ€ν μ΄ κ·Έ μμ λλ€.
- ν μ€νΈ μμ½: LLMμ κΈ΄ λ¬Έμμ κ°κ²°ν μμ½μ μμ±νμ¬ λ μμ μκ°κ³Ό λ Έλ ₯μ μ μ½ν΄ μ€λλ€. μ΄λ λ΄μ€ κΈ°μ¬, μ°κ΅¬ λ Όλ¬Έ λλ λ²λ₯ λ¬Έμλ₯Ό μμ½νλ λ° μ¬μ©λ μ μμ΅λλ€.
- κ°μ± λΆμ: LLMμ ν μ€νΈμ ννλ κ°μ±(κΈμ , λΆμ λλ μ€λ¦½)μ νλ¨νμ¬ κΈ°μ μ΄ κ³ κ°μ μ견과 νΌλλ°±μ μ΄ν΄ν μ μλλ‘ ν©λλ€. μ΄λ μμ λ―Έλμ΄ λͺ¨λν°λ§ λ° κ³ κ° λ¦¬λ·° λΆμμ μΌλ°μ μΌλ‘ μ¬μ©λ©λλ€.
- μ½λ μμ±: Codexμ κ°μ μΌλΆ LLMμ λ€μν νλ‘κ·Έλλ° μΈμ΄λ‘ μ½λλ₯Ό μμ±ν μ μμ΄ κ°λ°μκ° μννΈμ¨μ΄λ₯Ό μμ±νκ³ λλ²κΉ νλ λ° λμμ μ€λλ€.
LLMμ μν₯μ μ΄λ¬ν νΉμ μμ© λΆμΌλ₯Ό ν¨μ¬ λ°μ΄λμ΅λλ€. λν μ μ½ κ°λ°, μ¬λ£ κ³Όν, κΈμ΅ λͺ¨λΈλ§κ³Ό κ°μ λΆμΌμμλ μ¬μ©λμ΄ κ·Έ λ€μ¬λ€λ₯ν¨κ³Ό νμ μ μ¬λ ₯μ 보μ¬μ£Όκ³ μμ΅λλ€.
νΈλμ€ν¬λ¨Έ κΈ°λ° λͺ¨λΈμ μμ
λͺλͺ μ λͺ ν LLMμ νΈλμ€ν¬λ¨Έ μν€ν μ²λ₯Ό κΈ°λ°μΌλ‘ ν©λλ€. λ€μμ λͺ κ°μ§ μ£Όλͺ©ν λ§ν μμμ λλ€:
- BERT (Bidirectional Encoder Representations from Transformers): ꡬκΈμ΄ κ°λ°ν BERTλ λ€μν NLP μμ μ μν΄ λ―ΈμΈ μ‘°μ λ μ μλ μ¬μ νλ ¨λ λͺ¨λΈμ λλ€. λ¬Έμ₯μμ λ¨μ΄μ λ¬Έλ§₯μ μ΄ν΄νλ λ₯λ ₯μΌλ‘ μλ €μ Έ μμΌλ©°, μ§μμλ΅ λ° κ°μ± λΆμκ³Ό κ°μ μμ μμ ν₯μλ μ±λ₯μ 보μ¬μ€λλ€.
- GPT (Generative Pre-trained Transformer) μλ¦¬μ¦ (GPT-2, GPT-3, GPT-4): OpenAIκ° κ°λ°ν GPT λͺ¨λΈλ€μ μΈμμ μΈ ν μ€νΈ μμ± λ₯λ ₯μΌλ‘ μ λͺ ν©λλ€. λ€μν μ£Όμ μ λν΄ νμ€μ μ΄κ³ μΌκ΄μ± μλ ν μ€νΈλ₯Ό μμ±ν μ μμ΅λλ€.
- T5 (Text-to-Text Transfer Transformer): ꡬκΈμ΄ κ°λ°ν T5λ λͺ¨λ NLP μμ μ ν μ€νΈ-ν¬-ν μ€νΈ λ¬Έμ λ‘ μ·¨κΈνλ λͺ¨λΈμ λλ€. μ΄λ₯Ό ν΅ν΄ λ¨μΌ λͺ¨λΈμ μ¬μ©νμ¬ λ€μν μμ μ μ½κ² λ―ΈμΈ μ‘°μ ν μ μμ΅λλ€.
- LaMDA (Language Model for Dialogue Applications): ꡬκΈμ λ λ€λ₯Έ λͺ¨λΈμΈ LaMDAλ λν μμ© νλ‘κ·Έλ¨μ μν΄ μ€κ³λμμΌλ©° μμ°μ€λ½κ³ λ§€λ ₯μ μΈ λνλ₯Ό μμ±νλ λ₯λ ₯μΌλ‘ μλ €μ Έ μμ΅λλ€.
- BART (Bidirectional and Auto-Regressive Transformer): νμ΄μ€λΆμ΄ κ°λ°ν BARTλ ν μ€νΈ μμ± λ° ν μ€νΈ μ΄ν΄ μμ λͺ¨λλ₯Ό μν΄ μ€κ³λ λͺ¨λΈμ λλ€. ν μ€νΈ μμ½ λ° κΈ°κ³ λ²μκ³Ό κ°μ μμ μ μμ£Ό μ¬μ©λ©λλ€.
κ³Όμ μ λ―Έλ λ°©ν₯
νΈλμ€ν¬λ¨Έ κΈ°λ° LLMμ΄ λλΌμ΄ λ°μ μ μ΄λ£¨μμ§λ§, λͺ κ°μ§ κ³Όμ μ μ§λ©΄ν΄ μμ΅λλ€:
- κ³μ° λΉμ©: LLMμ νλ ¨νκ³ λ°°ν¬νλ λ°μλ μλΉν μμκ³Ό μλμ§κ° νμνμ¬ κ³μ° λΉμ©μ΄ λ§μ΄ λ€ μ μμ΅λλ€. μ΄λ ν° μμ°κ³Ό μΈνλΌλ₯Ό κ°μΆ μ‘°μ§μλ§ μ΄λ¬ν λͺ¨λΈμ μ κ·Όμ±μ μ νν©λλ€.
- λ°μ΄ν° μꡬ μ¬ν: LLMμ ν¨κ³Όμ μΌλ‘ νλ ¨νκΈ° μν΄ λ°©λν μμ λ°μ΄ν°κ° νμν©λλ€. μ΄λ λ°μ΄ν°κ° λΆμ‘±νκ±°λ μ»κΈ° μ΄λ €μ΄ μμ μμλ λμ κ³Όμ κ° λ μ μμ΅λλ€.
- νΈν₯κ³Ό 곡μ μ±: LLMμ νλ ¨λ λ°μ΄ν°λ‘λΆν° νΈν₯μ λ¬Όλ €λ°μ λΆκ³΅μ νκ±°λ μ°¨λ³μ μΈ κ²°κ³Όλ₯Ό μ΄λν μ μμ΅λλ€. LLMμ΄ μ± μκ° μκ³ μ€λ¦¬μ μΌλ‘ μ¬μ©λλλ‘ νλ €λ©΄ μ΄λ¬ν νΈν₯μ ν΄κ²°νλ κ²μ΄ μ€μν©λλ€.
- ν΄μ κ°λ₯μ±: μ΄ν μ λ©μ»€λμ¦μ΄ λͺ¨λΈμ μμ¬ κ²°μ κ³Όμ μ λν μΌλΆ ν΅μ°°λ ₯μ μ 곡νμ§λ§, LLMμ μ¬μ ν λλΆλΆ λΈλλ°μ€μ λλ€. μ λ’°λ₯Ό ꡬμΆνκ³ κ·Έ νκ³λ₯Ό μ΄ν΄νκΈ° μν΄μλ μ΄λ¬ν λͺ¨λΈμ ν΄μ κ°λ₯μ±μ ν₯μμν€λ κ²μ΄ μ€μν©λλ€.
- μ¬μ€μ±κ³Ό νκ°(Hallucination): LLMμ λλλ‘ λΆμ ννκ±°λ ν°λ¬΄λμλ μ 보λ₯Ό μμ±ν μ μμΌλ©°, μ΄ νμμ "νκ°"μ΄λΌκ³ ν©λλ€. LLMμ μ¬μ€μ±μ ν₯μμν€λ κ²μ μ§μμ μΈ μ°κ΅¬ λΆμΌμ λλ€.
νΈλμ€ν¬λ¨Έ κΈ°λ° LLM λΆμΌμ λ―Έλ μ°κ΅¬ λ°©ν₯μ λ€μκ³Ό κ°μ΅λλ€:
- ν¨μ¨μ μΈ μν€ν μ²: λ μ μ κ³μ° μμκ³Ό λ°μ΄ν°λ₯Ό νμλ‘ νλ λ ν¨μ¨μ μΈ μν€ν μ² κ°λ°.
- μ€λͺ κ°λ₯ν AI (XAI): LLMμ μμ¬ κ²°μ κ³Όμ μ μ΄ν΄νκΈ° μν ν΄μ κ°λ₯μ± ν₯μ.
- νΈν₯ μν: LLMμ νΈν₯μ μννκ³ κ³΅μ μ±μ 보μ₯νκΈ° μν κΈ°μ κ°λ°.
- μ§μ ν΅ν©: μΈλΆ μ§μ μμ€λ₯Ό LLMμ ν΅ν©νμ¬ μ¬μ€μ±κ³Ό μΆλ‘ λ₯λ ₯μ ν₯μ.
- λ€μ€ λͺ¨λ νμ΅: ν μ€νΈ, μ΄λ―Έμ§, μ€λμ€μ κ°μ μ¬λ¬ μμμ μ²λ¦¬νλλ‘ LLM νμ₯.
κ²°λ‘
νΈλμ€ν¬λ¨Έ μν€ν μ²λ NLP λΆμΌμ νλͺ μ μΌμΌμΌ, μ λ‘ μλ λ°©μμΌλ‘ μΈκ°μ μΈμ΄λ₯Ό μ΄ν΄νκ³ , μμ±νλ©°, μνΈμμ©ν μ μλ κ°λ ₯ν LLMμ κ°λ°μ κ°λ₯νκ² νμ΅λλ€. μ¬μ ν κ³Όμ κ° λ¨μ μμ§λ§, νΈλμ€ν¬λ¨Έλ λ€μν μ°μ κ³Ό μ°λ¦¬ μΆμ μ¬λ¬ μΈ‘λ©΄μ λ³νμν¬ μ μ¬λ ₯μ κ°μ§ μλ‘μ΄ μλμ AI κΈ°λ° μΈμ΄ κΈ°μ μ κΈΈμ μ΄μμ΅λλ€. μ°κ΅¬κ° κ³μ λ°μ ν¨μ λ°λΌ, μμΌλ‘ λͺ λ μμ μΈμ΄ λͺ¨λΈκ³Ό κ·Έ μμ©μ μ μ¬λ ₯μ μ΅λν λ°ννλ λμ± λλΌμ΄ νμ μ λ³Ό μ μμ κ²μΌλ‘ κΈ°λλ©λλ€. LLMμ μν₯μ μ μΈκ³μ μΌλ‘ λκ»΄μ§λ©°, μ°λ¦¬κ° μν΅νκ³ , λ°°μ°κ³ , κΈ°μ κ³Ό μνΈμμ©νλ λ°©μμ μν₯μ λ―ΈμΉ κ²μ λλ€.